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摘 要 : 随 着 5G 时 代 的 到 来 ， 短 视频 成 为 移动 互联 网 的 “风口 ”， 


牢 牢 抓 住 了 用 户 的 碎片 化 时 间 。 短 视频 正 逐 步 成 为 新 闻 


客户 端 内 容 的 重要 表现 形式 ， 本 文通 过 “短视 频 +” 人 工 智能 技术 ,探索 如 何 构建 智能 视频 能 力 ， 赋 能 媒体 深度 融合 。 
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1. 短视 频 新 闻 客 户 端 现状 

近年 来 ， 拌 音 、 快 手 、 微 视 等 短视 频 社 交 平台 发 展 
迅猛， 同时 资讯 类 短视 频 也 快速 兴起 。 QuestMobile 发 布 
的 《中 国 移动 互联 网 2020 年 半年 大 报告 》 中 显示 ， 短 视 
频 行业 月 活跃 用 户 规模 在 2020 年 6 月 已 达到 8.52 亿 。 癌 
随 着 音 视频 技术 的 发 展 和 5G 网 络 的 大 面积 覆盖 ，! 分 钟 
以 内 的 短视 频 内容 牢 牢 地 抓 住 了 高 速 移动 互联 网 时 代 下 
用 户 的 碎片 化 时 间 ， 并 且 让 用 户 长 时 间 沉 迷 于 短视 频 的 
观看 ， 成 为 现象 级 “ 霸 屏 ”产品 。 其 内 容 形 式 特点 在 于 ， 
有 鲜明 的 人 设 ， 短 小 精 悍 且 有 趣 ， 能 够 与 用 户 产生 情感 
共鸣 的 ， 从 而 直接 触发 用 户 互动 性 强 ， 黏 性 高 。 

通过 短视 频 来 呈现 新 闻 报 道 相 较 于 传统 的 图 文 、 广 
电视 频 新 闻 等 的 报道 形式 ， 短 视频 新 闻 创 新 在 于 将 视 、 
听觉 融 为 一 体 ， 视 频 进 入 “ 秒 ” 时 代 ， 以 其 碎片 化 、 移 
动 化 、 社 交 化 的 特征 ， 迎 合 了 移动 互联 网 时 代 的 用 户 碎 
片 化 、 浅 阅读 、 强 交互 的 内 容 消费 习惯 ， 同 时 将 最 精彩 、 
最 能 表达 情感 、 最 能 引起 共鸣 的 内 容 直 接触 达 给 用 户 。 
随 着 媒体 融合 向 纵深 发 展 ， 围 绕 打 造 “ 四 全 媒体 ”的 要 
求 , 短视 频 作为 资讯 内 容 模式 逐步 成 为 传播 的 重要 手段 ， 
短视 频 新 闻 为 传统 媒体 实现 深度 融合 的 关键 切入 点 ， 为 
媒体 融合 升级 转型 提供 了 全 新 的 驱动 力 。 鉴 于 短视 频 在 
内 容 传 播 上 的 趋势， 各 大 媒体 纷纷 推出 了 短视 频 新 闻 业 
务 和 频道 ， 2016 年 10 月 新 京 报 上 线 了 “我 们 ”视频 项 目 ， 


如 何 创 造 性 地 去 构建 短视 频 新 闻 客户 端的 智能 视频 能 力 
成 为 重要 课题 ， 需 要 我 们 为 之 探索 实践 。 
2. 构建 视频 智能 生产 能 力 

目前 ， 主 流 短视 频 新 闻 客 户 端 存在 PGC 和 UGC 两 
种 生产 模式 ， 因 此 两 种 不 同 的 内 容 生产 场景 所 需 支 撑 的 
生产 能 力 同 样 存在 差异 。 从 研发 角度 出 发 ， 首 先 要 考虑 
内 容 生产 能 力 的 适用 性 ， 其 次 要 考虑 两 种 内 容 生产 场景 
能 力 复 用 性 ， 避 免 重复 开发 ， 从 而 降低 研发 成 本 。 

结合 人 工 智能 、 大 数据 、5G、VR、AR、MR 等 技术 
赋 能 短视 频 新 闻 客 户 端 形成 “AI+” 技 术 生 态 ， 主 要 有 以 
下 几 个 方面 来 构建 智能 音 视 频 能 
2.1 智能 融合 媒 资 系统 

在 融 媒 要 求 下 ， 对 于 富 媒体 资源 的 使 用 场景 存在 跨 
平台 、 跨 媒体 、 跨 终端 的 刚性 需求 ， 需 要 利用 云 计算 和 
人 工 智能 ,打造 富 媒体 内 容 汇 聚 、 存 储 管理 、 处 理 加 工 、 
渠道 分 发 、 分 析 挖 掘 为 一 体 的 云端 智能 媒 资 系 统 ， 它 主 
要 包括 以 下 几 方面 的 能 
2.1.1 智能 媒 资 存储 

基于 云 计算 弹性 扩容 能 力 、 强 大 的 中 间 件 及 丰富 的 
数据 库 服 务 ， 为 融合 媒 资 搭建 提供 了 底层 能 力 保障 ， 能 
支持 各 种 媒体 资料 类 型 的 存储 ， 支 持 最 多 数据 来 源 ， 可 
分 场景 管理 ， 采 用 不 同 存储 类 型 来 支持 不 同业 务 需要 。 
例如 制作 分 发 内 容 媒 资 ， 采 用 对 象 存储 中 的 标准 存储 ， 


同年 11 月 梨 视频 客户 端的 上 线 ， 形 成 了 早期 的 资讯 类 短 
视频 平台 的 雏形 。 近 两 年 , 随 着 进一步 推动 媒体 深度 融合 ， 
央 媒 和 地 方 媒体 投入 重要 资源 打造 短视 频 客 户 端 ， 如 人 
民 日 报社 推出 主流 短视 频 PUGC 聚合 平台 “人 民 日 报 +” 


已 提 供 高 可 靠 、 高 可 用 、 高 性 能 的 对 象 存储 服务 ， 能 够 
支持 频繁 的 数据 访问 , 适用 于 各 种 社交 、 分 享 类 的 图 片 、 
音 视频 应 用 等 业务 场景 ， 男 外 同时 也 提供 低频 访问 、 归 
档 存储 、 冷 归档 存储 等 多 个 存储 类 型 ， 既 能 保证 移动 互 


客户 端 ， 中 央 广 播 电 视 总 台 推出 的 综合 性 视听 新 媒体 旗 
舰 平 台 “ 央 视频 ”客户 端 ， 浙 江 在 线 倾 力 打造 的 服务 长 
三 角 一 体 化 发 展 国家 战略 的 短视 频 新 闻 客 户 端 “天 目 新 
闻 ”， 标 志 着 短视 频 新 闻 客 户 端 成 为 媒体 融合 领域 新 的 
苑 争 高 地 , 也 成 为 媒体 融合 创新 的 重要 赛 道 。 在 人 工 智能 、 
NLP 自然 语言 处 理 、 大 数据 和 5G 迅猛 发 展 和 全 面 应 用 落 
地 的 背景 下 如 何 赋 能 一 款 短视 频 客户 端 ， 尤 其 是 围绕 内 
容 管理 、 音 视频 制作 、 审 核发 布 、 跨 媒 呈 现 等 业务 场景 ， 


联网 高 频 、 高 并 发 访问 的 业务 场景 ， 同 时 又 降低 了 使 用 
成 本 。 
2.1.2 智能 媒 资 处 理 

基于 云 存储 之 上 ， 将 音 视频 内 容 在 云端 进行 一 系 
列 的 多 媒体 数据 处 理 ， 使 音 视频 内 容 转 人 码 成 适合 在 全 平 
台 播 放 的 格式 。 须 具备 互联 网 音 视频 通用 编码 能 力 ， 如 
H.264、H.265 编码 ， 支 持 在 输出 视频 上 和 覆盖 图 片 、 文 字 
水 印 ， 增 强 产 品 识别 度 。 可 将 视频 文件 中 单独 分 离 出 音 


202310.01216v1 


chinaXiv 


频 或 视频 ， 对 于 长 视频 ， 具 备 视频 分 片 并 行 转 码 ， 可 大 
幅 提 升 转 码 速度 。 对 存储 于 对 象 存储 上 的 视频 文件 可 截 
取 指 定时 间 的 JPG 格式 图 像 , 支持 单 张 截图 、 多 张 截 图 。 
可 通过 对 视频 内 容 的 理解 并 结合 画面 美学 ， 选 出 最 优 的 
关键 帧 作为 视频 封面 网 ， 或 从 视频 内 容 中 智能 提取 最 有 
代表 性 的 一 组 截图 组 成 CIF， 作 为 视频 的 摘要 概括 。 提 取 
视频 中 的 声音 、 图 像 及 时 序 特征 ， 生 成 视频 指纹 ， 实 现 
视频 片段 溯源 等 功能 ， 可 用 于 视频 去 重 、 侵 权 视 频 过 滤 、 
原创 视频 保护 等 场景 。 
2.1.3 ”智能 结构 化 管理 
音 视 频 内 容 是 非 结构 化 文件 ， 在 管理 、 使 用 、 再 次 
利用 时 存在 查询 、 分 析 、 挖 气 等 问题 ， 传 统 花 费 大 量 的 
人 力 做 编目 管理 ， 且 编目 管理 存在 多 层 编目 要 求 ， 由 于 
需要 人 工 操作 ， 除 了 费时 费力 以 外 ， 编 目 结果 还 存在 操 
作 人 员 对 内 容 理 解 的 差异 性 。 

基于 深度 学 习 、 计 算 机 视觉 技术 和 海量 数据 ， 对 视 
频 进行 内 容 、 文 字 、 语 音 、 场 景 等 多 模 态 分 析 ， 首 先 ， 
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内 容 安 全 通过 人 工 智 能 深度 学 习 算法 ， 自 动 化 智能 识别 
违规 内 容 ， 大 幅度 降低 人 工 成 本 ， 提 高 审核 效率 ， 能 有 
效 的 满足 风 控 管理 要 求 。 
2.1.5 PCDN 加 速 

以 P2P 技术 为 基础 ， 通 过 挖掘 利用 边缘 网 络 海量 碎 
片 化 闲置 资源 构建 低 成 本 高 品质 内 容 分 发 网 络 服务 ， 适 
用 视频 点 播 、 直 播 等 业务 场景 。 通 过 集成 PCDN SDK 后 ， 
与 普通 CDN 相 比 能 显著 提升 分 发 质量 ， 为 实现 视频 “ 秒 
开 ” 效 果 提 供 基 础 网 络 保证 , 一 定 程 度 也 能 降低 分 发 成 本 。 
在 安全 防护 机 制 上 ， 对 于 防盗 链 、 抵 御 DDoS 攻击 、 数 据 
安全 方面 使 用 加 密 鉴 权 制 ， 节 点 缓存 使 用 高 强度 加 密 ， 
防止 内 容 被 算 改 ,确保 内 容 受 控 。 中 
2.2 ”智能 短视 频 制作 平台 

利用 人 工 智 能 和 计算 机 视觉 技术 ， 集 素材 管理 、 在 
线 剪 辑 、 后 期 包装 、 泻 染 导出 和 发 布 于 一 体 的 云 在 线 制 
作 平 台 ， 系 统 将 视频 素材 在 云端 进行 结构 化 处 理 ， 把 视 
据 中 的 元 数据 抽取 出 来 进行 自动 化 标签 ， 即 对 上 传 的 视 
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可 以 实现 自动 输出 新 闻 “5W” 要 素 标签 、 视 频 分 类 和 其 
他 多 维度 的 内 容 标 签 ， 适 用 于 个 性 化 推荐 和 视频 搜索 等 
场景 ; 其 次 ,识别 视 频 中 的 人 脸 ， 并 支持 五 官 关 键 点 定 
位 、 人 脸 属性 分 析 和 快速 的 人 脸 聚 类 , 适用 于 机 带 剪 辑 、 
脱 敏 风 控 、 人 物 关 联 、 知 识 图 谱 等 场景 ; 再 次 ， 将 音频 
转 成 文字 ， 从 文字 中 抽取 关键 词 ， 也 是 标签 内 容 的 来 源 
和 脱 敏 风 控 的 维度 之 一 ; 最 后 ，OCR 识别 对 多 媒体 数据 
中 的 文字 进行 检测 、 精 准 识别 视频 画面 中 的 字幕 、 标 题 、 
弹 幕 等 关键 内 容 。 
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智能 媒 资 结 构 化 系统 〈 媒 立方 2. 0 系统) 


2.1.4 智能 风 控 管理 

在 融 媒体 时 代 下 大 量 的 富 媒 体 音 视频 内 容 的 传播 ， 
传统 的 文字 审核 体系 已 经 无 法 满足 移动 互联 网 时 代 海 量 
内 容 的 审核 需求 。 通 过 人 工 智能 机 器 审核 + 人 工 审核 的 
方式 ， 可 有 效 降 低 内 容 审 核 人 力 成 本 ,为 音频 、 图 像 、 
视频 内 容 安全 提供 了 更 高 的 技术 保障 ， 同 时 又 提升 内 容 
审核 的 效率 和 准确 度 。 该 项 能 力主 要 提供 涉 政 、 涉 黄 、 
涉 恐 、 涉 暴 、 以 及 人 物 、 场 景 、 物 体 等 多 模 态 的 内 容 风 
控 能 力 。 尤 其 是 涉及 UCC 内 容 生 产 ， 内 容 数据 多 ， 增 长 
快 ， 且 人 工 审核 速度 慢 , 成 本 高 ,存在 巨大 的 违规 风险 ， 


磊 进 行 场景 分 类 、 人 物 识别 、 语 音 识别 、 文 字 识 别 等 分 析 ， 
形成 层次 化 的 精细 分 类 标签 ， 从 而 实现 视频 素材 的 精准 
搜索 。 通 过 智能 特效 、 智 能 字幕 、 智 能 语音 等 AI 技术 提 
升 在 线 视 频 制 作 效率 ， 甚 至 基于 NLP 将 脚本 文字 通过 预 
设 的 制作 模板 快速 转化 为 短视 频 。 较 常用 的 云 快 编 功 能 
可 以 让 编辑 直接 基于 浏览 器 快速 剪辑 视频 添加 转 场 特效 ， 
通过 AI 语音 转 文字 快速 添加 字幕， 利用 CV 技术 实现 虚 
拟 主持 人 配音 ， 泻 当 导 出 一 键 发 布 到 客户 端 及 各 视频 平 
台 上 。 同 时 , 平台 还 能 将 5G 直播 流 实时 接 入 ， 通 过 可 视 
化 操作 ， 将 直播 视频 以 边 播 边 打 点 的 方式 切片 形成 短视 
频 立 即 输出 发 布 。 综 上 ,编辑 团队 在 线 协 同 的 生产 方式 ， 
使 整个 视频 制作 的 流程 被 大 幅 缩 得， 生产 视频 内 容 的 门 
槛 和 成 本 也 大 大 降低 。AI 赋 能 视频 制作 ， 实 现 了 视频 处 
理 生 产 力 上 的 突破 ， 改 变 了 传统 意义 上 视频 制作 的 生产 
关系 。 


短视 频 智 能 快 编 系 统 〈 媒 立方 2. 0) 


3. 5G 移动 云 直 播 系统 

在 SG 网 络 大 规模 商用 的 情况 下 ， 基 于 5G 高 速率 、 
低 延 时 、 万 物 互 联 的 特性 ， 为 移动 直播 进入 高 清晰 、 强 
互动 、 全 场景 提供 基础 网 络 保证 。 首 先 ，5G 高 速率 情况 
下 可 实现 视频 高 码 流 ， 实 现 以 高 清 画 质 为 基础 的 高 质量 
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言 号 传输 ， 从 而 满足 用 户 对 融 媒 体 直播 越 来 越 高 的 视觉 
体验 。 其 次 ，5G 低 时 延 特 性 使 得 新 闻 现 场 和 用 户 感受 之 
间 实 现 “ 同 步 发 生 ”， 增 强 用 户 与 媒体 、 用 户 与 用 户 之 
间 互 动 的 欲望 。 再 次 , 5G 让 万 物 互 联 , 从 摄像 机 、 无 人 机 、 
360 VR 云 台 、 交 通 安 防 监控 到 任意 一 台 手 机 都 可 作为 稳 
定 的 直播 信号 源 ， 从 而 实现 全 场景 、 沉 浸 式 直播 内 容 。 
综 上 所 述 ， 整 套 5G 移动 云 直 播 系统 主要 包含 以 下 几 
个 方面 : 
1. 直播 项 目 管理 . 支持 直播 项 目 创建 、 推 流 地 址 分 配 、 
直播 时 间 设置 、 直 播 封 面 制 作 等 功能 。 
2. 直播 素材 管理 : 对 直播 过 程 中 使 用 到 的 各 类 素材 
进行 集中 管理 ， 实 现 快速 搜索 、 快 速 调 用 。 

3. 实 时 导播 管理 : 对 多 路 直播 信号 流 进行 导播 切换 ， 
实现 跨 时 空 、 多 机 位 、 多 场景 画面 管理 。 

4. 回放 文件 管理 : 对 直播 回放 文件 进行 查看 、 下 载 、 
人 和信 库 、 回 放 替 换 、 回 放 选 段 、 回 放 快 编 。 

5. 实时 风 控 管理 : 实现 对 直播 内 容 的 播 出 控制 ， 同 
减少 人 为 内 容 鉴 定 , 提高 内 容 智 能 化 识别 鉴定 和 预警 。 


Tr 


循环 播放 场景 。 

4. 支持 点 播 和 直播 的 首 屏 秒 开 功 能 ， 提 供 直播 的 动 
态 追 帧 ， 降 低 延 时 。 有 具备 直播 的 自动 重 连 功 能 ， 已 经 组 
冲 的 视频 内 容 在 拖 动 时 不 清除 缓冲 内 容 并 快速 拖 动 。 

5. 支 持 基 于 播放 器 用 户 行为 信息 的 个 性 化 埋 点 采集 。 

6. 支持 实时 指标 监控 、 根 因 分 析 ， 能 够 提供 全 链 路 
问题 追踪 能 力 。 

4.2 短视 频 拍摄 

短视 频 拍 摄 功能 须 具 备 下 列 基 础 功能 : 

1. 支 持 断 点 录制 、 回 删 点击 拍摄 .长 按 拍 摄 闪光灯、 
实时 水 印 、 摄 像 头 切换 、 分 辩 率 设 定 、 实 时 混 音 和 变速 
等 功能 。 

2. 支 持 从 相册 选择 视频 、 按 视频 时 长 和 画面 进行 裁 
前 。 支 持 多 视频 、 多 照片 、 照 片 和 视频 混合 导入 拼接 、 
并 可 设置 转 场 模式 和 转 场 持续 时 间 。 

3. 支 持 拍 摄 实时 滤 镜 、 普 通 美 颜 、 人 脸 2D 和 3D 贴图 ， 
提供 基于 人 脸 、 人 体 的 CV 算法 实现 高 级 美 颜 、 美 站 、 微 
整形 、 美 体 、 手 势 识别 等 增强 现实 能 力 。 
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6. 数据 统计 管理 : 对 采集 到 的 数据 进行 分 析 ， 实 现 


对 用 户 行为 多 维度 分 析 并 输出 分 析 报表 。 
i 四 


移动 直播 系统 管理 后 台媒 立方 2. 0) 


4. 移动 端 视频 应 用 能 力 

对 于 短视 频 客户 端 用 户 而 言 ， 最 直观 的 就 是 视频 播 
放 体 验 ,不 管 点 播 还 是 直播 场景 , 视频 播放 器 的 加 载 方式 、 
操作 交互 、 视 频 清晰 度 、 播 放 稳 定性 、 以 及 流 媒 体 文件 
解码 的 兼容 性 都 关系 到 用 户 体验 好 坏 与 否 。 其 次 ,具备 
UGC 场景 的 短视 频 客户 端 须 提 供 短 视频 拍摄 、 制 作 和 特 
效 功 能 , 提升 用 户 短 频 制作 的 趣味 性 , 增强 用 户 社交 体验 。 
4.1 视频 播放 器 

移动 端 播放 器 须 支 持 下 列 技术 要 求 : 

1. 支持 主流 MP4、M3U8、FLV、MKV 视频 格式 、 
MP3 音频 格式 以 及 H.264、H.265 视频 硬 解码 功能 、AAC 
音频 编码 ，i0S 端 须 支持 AC3 音频 编码 ， 提 供 多 码 率 
HLS 的 无 缝 切换 。 

2. 支 持 开 始 、 结 束 、 和 暂停 、 恢 复 、 重 播 和 循环 播放 


等 播放 控制 功能 ， 同 时 提供 点 播 和 直播 功能 ， 支 持 网 络 
视频 的 URL 方式 播放 。 


3. 支 持 点 播 和 转 码 的 多 路 清晰 度 流 切换 ， 提 供 直播 
时 移 视频 流 播 放 和 视频 边 播 边 缓存 功能 ， 适 合 短视 频 的 


4. 支 持 在 编辑 界面 添加 滤 镜 、 字 幕 、 动 ( 静 ) 态 贴图 、 
BGM 和 涂鸦 等 功能 。 
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天 目 新 闻 客 户 端 UGC 短视 频 制作 工具 
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